Hồi quy cox là gì? Các bài nghiên cứu khoa học liên quan

Hồi quy Cox là phương pháp phân tích sinh tồn bán tham số nhằm ước lượng tác động của biến giải thích lên nguy cơ xảy ra sự kiện theo thời gian mà không cần giả định phân phối mốc cơ bản. Mô hình Cox sử dụng hàm hợp lý từng phần (partial likelihood) để so sánh tỷ lệ nguy cơ tương đối giữa các nhóm và ước tính hệ số β phản ánh ảnh hưởng của từng biến giải thích.

Tóm tắt tổng quan

Hồi quy Cox (Cox proportional hazards model) là phương pháp phân tích sinh tồn bán tham số, ước lượng tác động của các biến giải thích lên nguy cơ xảy ra sự kiện theo thời gian mà không cần giả định phân phối mốc cơ bản. Mô hình này cho phép so sánh nguy cơ tương đối giữa các nhóm khác nhau thông qua hệ số β, thể hiện dưới dạng hazard ratio, rất phổ biến trong y sinh, dịch tễ học và kỹ thuật độ tin cậy (PubMed Central).

Mô hình Cox không yêu cầu xác định hàm hazard cơ bản h0(t)h_0(t), do đó linh hoạt hơn mô hình Parametric Survival. Việc ước lượng dựa trên hàm hợp lý từng phần (partial likelihood) đảm bảo tính hiệu quả và độ tin cậy cao trong điều kiện dữ liệu bị censored (có quan sát bị chặn). Độ mạnh của phương pháp nằm ở khả năng xử lý dữ liệu quan sát sống còn mà không cần giả định ngặt nghèo về phân phối thời gian đến sự kiện.

Các ứng dụng tiêu biểu bao gồm ước lượng nguy cơ tử vong ở bệnh nhân ung thư, so sánh thời gian thất nghiệp trong kinh tế lao động, và đánh giá tuổi thọ thiết bị trong kỹ thuật. Kết quả phân tích thường báo cáo dưới dạng hazard ratio kèm khoảng tin cậy 95%, giúp đánh giá ý nghĩa thống kê và thực tiễn của các biến độc lập.

Khái niệm cơ bản

Mô hình Cox định nghĩa hàm nguy cơ (hazard function) tại thời điểm tt cho cá thể ii là hàm tích giữa hazard cơ bản và thành phần phụ thuộc biến giải thích:

hi(t)=h0(t)exp(βTXi)h_i(t) = h_0(t)\,\exp(\beta^T X_i)

Trong đó, h0(t)h_0(t) là hàm hazard mốc (baseline hazard) phản ánh nguy cơ cơ bản chung cho toàn bộ quần thể, XiX_i là vector gồm các biến giải thích (covariates) của cá thể ii, và β\beta là vector hệ số cần ước lượng. Biểu thức exp(βTXi)\exp(\beta^T X_i) cho biết hệ số nhân nguy cơ theo từng đơn vị biến giải thích.

Các biến giải thích có thể bao gồm cả biến liên tục và biến phân loại. Đối với biến phân loại, kỹ thuật one-hot encoding hoặc dummy coding được sử dụng để đưa vào mô hình. Biến liên tục cần kiểm tra tính tuyến tính log-hazard thông qua đồ thị Martingale residuals để đảm bảo độ phù hợp của mô hình.

Giả thiết tỷ lệ nguy cơ

Giả thiết proportional hazards (PH) yêu cầu tỷ lệ hazard giữa hai cá thể không đổi theo thời gian, cụ thể:

hi(t)hj(t)=exp(βT(XiXj))\frac{h_i(t)}{h_j(t)} = \exp\bigl(\beta^T (X_i - X_j)\bigr)

Giả thiết này là nền tảng của mô hình Cox, cho phép tách biệt phần thời gian h0(t)h_0(t) khỏi thành phần phụ thuộc biến XX. Nếu PH không được thoả mãn, hệ số β có thể thay đổi theo thời gian, dẫn tới sai lệch ước lượng và giải thích.

Kiểm định giả thiết PH thường thực hiện bằng phương pháp Schoenfeld residuals, đánh giá mối tương quan giữa residual và thời gian. Ngoài ra, đồ thị log-minus-log survival plots cũng giúp trực quan hoá tính tỉ lệ: các đường log(-log S(t)) của các nhóm khác nhau nên song song nếu PH được thoả mãn (PMC).

  • Kiểm định Schoenfeld residuals: p>0.05p>0.05 cho thấy không vi phạm giả thiết PH.
  • Đồ thị log(-log S(t)): các đường song song minh chứng cho PH.
  • Mô hình phân tầng (stratified Cox): áp dụng khi PH vi phạm giữa các tầng.

Phương pháp ước lượng

Hệ số β\beta được ước lượng thông qua tối đa hóa hàm hợp lý từng phần (partial likelihood), bỏ qua hàm hazard mốc không cần biết cụ thể. Hàm hợp lý từng phần được định nghĩa như sau:

(β)=i:δi=1[XiTβlogjR(ti)eXjTβ]\ell(\beta)=\sum_{i:\delta_i=1}\Bigl[X_i^T\beta - \log\sum_{j\in R(t_i)}e^{X_j^T\beta}\Bigr]

Trong đó, δi\delta_i là chỉ dấu sự kiện (1 nếu cá thể ii xảy ra sự kiện, 0 nếu censored), và R(ti)R(t_i) là tập các cá thể vẫn còn rủi ro tại thời điểm tit_i. Phần tử thứ nhất trong tổng thể hiện đóng góp của cá thể có sự kiện, phần tử thứ hai là log tổng các nguy cơ tại thời điểm đó, đảm bảo tính loại trừ censored observation.

Ước lượng β tiến hành bằng phương pháp Newton–Raphson hoặc Fisher scoring, đảm bảo hội tụ nhanh. Ma trận Hessian được sử dụng để xác định sai số chuẩn (standard error) của mỗi hệ số, từ đó tính ra khoảng tin cậy (confidence interval) và kiểm định Wald để đánh giá ý nghĩa thống kê của biến giải thích.

Thuật toánƯu điểmNhược điểm
Newton–RaphsonHội tụ nhanhCần tính Hessian đầy đủ
Fisher scoringỔn định hơn với dữ liệu lớnChậm hơn Newton–Raphson

Độ phức tạp tính toán của hàm partial likelihood tỷ lệ với số sự kiện và biến giải thích; trong trường hợp nhiều biến, cần lưu ý đa cộng tuyến và có thể áp dụng penalized Cox (ví dụ Lasso hoặc Ridge penalty) để tránh overfitting.

Đánh giá mô hình

Hiệu năng của mô hình Cox thường được đánh giá thông qua ba kiểm định chính: likelihood ratio test, Wald test và score (log-rank) test. Cả ba kiểm định đều so sánh mô hình đầy đủ với mô hình null (không có biến giải thích) để xác định ý nghĩa thống kê tổng thể của biến số (ETH Zürich).

Chỉ số concordance (c-index) đo mức độ phân biệt (discrimination) của mô hình, thể hiện xác suất đôi cá thể được dự đoán đúng thứ tự thời gian đến sự kiện. Giá trị c-index dao động từ 0.5 (dự đoán ngẫu nhiên) đến 1.0 (dự đoán hoàn hảo), thường chấp nhận c-index ≥0.7 là mô hình có khả năng phân biệt tốt.

Brier score đánh giá độ chính xác tổng thể bằng cách so sánh xác suất sinh tồn dự đoán với quan sát thực tế. Brier score càng thấp càng tốt. Phương pháp bootstrapping hoặc cross‐validation được dùng để đánh giá tính ổn định và khả năng khái quát của mô hình.

Mở rộng mô hình

Để xử lý khi giả thiết proportional hazards không thỏa mãn, có thể sử dụng Cox phân tầng (stratified Cox) bằng cách phân tầng theo biến vi phạm PH, cho phép hazard cơ bản khác nhau giữa các tầng nhưng chung hệ số β:

hi(t)=h0k(t)exp(βTXi),itaˆˋng kh_{i}(t) = h_{0k}(t)\,\exp(\beta^T X_i),\quad i\in \text{tầng }k

Biến thời gian-thay đổi (time–dependent covariates) mở rộng khả năng mô hình hóa khi giá trị covariate thay đổi theo thời gian, ví dụ mức huyết áp hoặc mức tải thuốc. Mô hình này ghi nhận ảnh hưởng của covariate tại thời điểm t lên hazard hiện tại.

Penalized Cox (Lasso, Ridge, Elastic Net) thêm thành phần phạt vào hàm likelihood để xử lý đa cộng tuyến và chọn biến tự động. Ví dụ Lasso-Cox sử dụng penalty λjβj \lambda \sum_j |\beta_j| , vừa ước lượng hệ số vừa loại bỏ biến không quan trọng (JSTOR).

Ứng dụng thực tiễn

Trong nghiên cứu y sinh, Cox regression giúp xác định các yếu tố nguy cơ ảnh hưởng đến thời gian sống của bệnh nhân ung thư. Ví dụ, biến độ tuổi, giai đoạn bệnh và tình trạng di căn được đưa vào mô hình để ước lượng hazard ratio, hỗ trợ quyết định phác đồ điều trị.

Trong dịch tễ học, mô hình này phân tích thời gian đến tái nhiễm hoặc tử vong do nhiễm trùng, kết hợp với phân tích chuỗi thời gian sự kiện dịch bệnh để đánh giá hiệu quả can thiệp y tế cộng đồng.

Trong kỹ thuật độ tin cậy, Cox regression được dùng để phân tích thời gian hỏng hóc của linh kiện điện tử hoặc cơ khí. Covariate như nhiệt độ môi trường, cường độ tải và tần suất sử dụng được đưa vào để dự báo tuổi thọ và lập kế hoạch bảo trì.

Thực thi bằng phần mềm

Trong R, gói survival cung cấp hàm coxph() để ước lượng mô hình:

  • fit <- coxph(Surv(time, status) ~ x1 + x2 + x3, data = mydata)
  • summary(fit) trả về hệ số β, sai số chuẩn, hazard ratio và p-value.
  • cox.zph(fit) kiểm định Schoenfeld residuals, plot(cox.zph(fit)) vẽ log-minus-log plot.

Trong Python, thư viện lifelines cung cấp lớp CoxPHFitter:

  1. from lifelines import CoxPHFitter
  2. cph = CoxPHFitter(); cph.fit(df, duration_col='T', event_col='E'); cph.print_summary()
  3. cph.check_assumptions(df) tự động kiểm tra giả thiết PH.

Các phần mềm khác như SAS (PROC PHREG), Stata (stcox) và SPSS (COXREG) cũng hỗ trợ phân tích Cox với giao diện đồ họa hoặc script.

Hạn chế và thách thức

Mô hình Cox không ước lượng được hàm hazard mốc h0(t)h_0(t), chỉ ước lượng tương đối hazard ratio. Điều này hạn chế khi cần dự báo tuyệt đối xác suất sinh tồn tại thời điểm cụ thể.

Giả thiết proportional hazards là điểm yếu khi covariate có tác động thay đổi theo thời gian. Mô hình mở rộng như stratified Cox hay time–dependent covariates khắc phục phần nào nhưng tăng độ phức tạp và đòi hỏi dữ liệu chi tiết hơn.

Dữ liệu censored không ngẫu nhiên (informative censoring) có thể gây sai lệch kết quả. Cần kiểm tra và nếu cần sử dụng phương pháp chung (joint modeling) hoặc tính trọng số inverse probability of censoring weights (IPCW) để điều chỉnh.

Khi số lượng biến giải thích lớn so với số sự kiện, dễ gặp overfitting và đa cộng tuyến. Giải pháp bao gồm penalized Cox, giảm chiều dữ liệu (dimension reduction) hoặc tăng kích thước mẫu nghiên cứu.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề hồi quy cox:

Chỉ số tiên đoán dựa trên mười bốn RNA không mã hóa dài nhằm dự đoán khả năng sống sót không tái phát cho bệnh nhân ung thư bàng quang xâm lấn cơ Dịch bởi AI
BMC Medical Informatics and Decision Making - - 2020
Abstract Giới thiệu Ung thư bàng quang (BC) được xem là một trong những loại ung thư nguy hiểm nhất trên toàn thế giới. Tuy nhiên, vẫn còn thiếu những chỉ số đầy đủ để dự đoán tiên lượng cho bệnh nhân BC. Bài nghiên cứu này nhằm thiết lập một dấu ấn tiên đoán tiên lượng dựa trên RNA không mã hóa dài (lncRNA) cho bệnh nhân BC xâm l...... hiện toàn bộ
#ung thư bàng quang #RNA không mã hóa dài #tiên đoán tiên lượng #sống sót không tái phát #phân tích hồi quy Cox.
Ước tính tác động của các yếu tố lên thời gian sống sót của khoản vay của khách hang cá nhân tại ngân hàng thương mại bằng mô hình Laplace
Tạp chí Kinh tế và Phát triển - Số 287 - Trang 66-75 - 2021
Việc ước lượng và dự báo thời điểm mà khoản vay bị vỡ nợ là bài toán quan trọng trong việc quản trị rủi ro của ngân hàng. Người ta thường sử dụng các mô hình Cox PH hay AFT để nghiên cứu bài toán này. Tuy nhiên, các mô hình này dựa trên giả định là tác động của các biến giải thích lên toàn bộ thời gian sống sót của khoản vay là đồng nhất và giả thiết này là không đúng trong nhiều trường hợp. Trong...... hiện toàn bộ
#Hồi quy phân vị #hồi quy Laplace #mô hình Cox #mô hình AFT #phân tích sống sót
Mối liên hệ giữa chỉ số chống oxi hóa chế độ ăn tổng hợp và tỷ lệ tử vong do bệnh tim mạch ở bệnh nhân tiểu đường type 2 Dịch bởi AI
Diabetology & Metabolic Syndrome - Tập 15 - Trang 1-11 - 2023
Nghiên cứu mối liên hệ giữa chỉ số chống oxi hóa chế độ ăn tổng hợp (CDAI) với nguy cơ tử vong do bệnh tim mạch (CVD) ở những người mắc tiểu đường type 2 (T2D). Nghiên cứu đoàn hệ tích cực này bao gồm 7551 bệnh nhân mắc T2D đã tham gia khảo sát sức khỏe và dinh dưỡng quốc gia (NHANES) từ năm 1999 đến năm 2018. Dữ liệu thống kê về tỷ lệ tử vong được thu thập bằng cách liên kết cơ sở dữ liệu đoàn hệ...... hiện toàn bộ
#Chỉ số chống oxy hóa chế độ ăn tổng hợp #tử vong do bệnh tim mạch #tiểu đường type 2 #nghiên cứu đoàn hệ #hồi quy Cox đa biến
Cô lập xã hội, động lực sức khỏe và tử vong: bằng chứng từ 21 quốc gia châu Âu Dịch bởi AI
Journal of Population Economics - Tập 36 - Trang 2483-2518 - 2023
Chúng tôi cung cấp một bức tranh tổng thể về tác động của cô lập xã hội đối với sức khỏe thông qua dữ liệu theo chiều ngang từ 21 quốc gia châu Âu. Đầu tiên, sử dụng hồi quy Cox, chúng tôi phát hiện một mối liên hệ đáng kể, mạnh mẽ và ổn định giữa chỉ số cô lập xã hội và tỷ lệ tử vong. Mối liên hệ này mạnh mẽ hơn nhiều ở các quốc gia Đông Âu. Trong khi tất cả các ước tính từ các quốc gia được gộp ...... hiện toàn bộ
#cô lập xã hội #sức khỏe #tử vong #nghiên cứu theo chiều ngang #hồi quy Cox
Sự biểu hiện cao của CXCR2 liên quan đến sự hình thành khối u, tiến triển và tiên lượng của ung thư tế bào vảy thanh quản Dịch bởi AI
Medical Oncology - Tập 29 - Trang 2466-2472 - 2012
Ung thư tế bào vảy thanh quản (LSCC) là một trong những loại ung thư phổ biến nhất đe dọa tính mạng con người. Thụ thể chemokine CXC loại 2 (CXCR2) đã được báo cáo có vai trò quan trọng trong angiogenesis, hình thành khối u và di căn của nhiều loại ung thư như ung thư đại tràng, u hắc tố, ung thư phổi, và nhiều hơn nữa. Tuy nhiên, sự biểu hiện của CXCR2 trong LSCC và mối liên quan của nó với các đ...... hiện toàn bộ
#ung thư tế bào vảy thanh quản #CXCR2 #di căn #tiên lượng #phân tích hồi quy Cox
Thời gian điều trị tâm lý cho trầm cảm có liên quan đến việc quay lại điều trị không? Dịch bởi AI
Social psychiatry - - 2016
Có áp lực ngày càng tăng đối với các nhà cung cấp dịch vụ sức khỏe tâm thần trong việc giảm thời gian điều trị, đồng thời vẫn giữ được chất lượng và hiệu quả. Rủi ro là người dân không được phục vụ đầy đủ và do đó cần có các đợt điều trị mới. Mục tiêu chính của nghiên cứu này là điều tra liệu thời gian điều trị và việc quay trở lại dịch vụ chăm sóc sức khỏe tâm thần có liên quan hay không. Nghiên ...... hiện toàn bộ
#thời gian điều trị #sức khỏe tâm thần #trầm cảm #hồi quy Cox #điều trị tâm lý
Xác định chữ ký dự đoán điều trị cá nhân hóa cho ung thư biểu mô tế bào vảy vùng đầu và cổ Dịch bởi AI
Springer Science and Business Media LLC - Tập 24 - Trang 1-16 - 2023
Ung thư biểu mô tế bào vảy vùng đầu và cổ (HNSCC) là loại ung thư phổ biến nhất ở vùng đầu và cổ. Các gen liên quan đến đáp ứng điều trị (TRRGs) có mối liên hệ chặt chẽ với quá trình hình thành khối u và tiên lượng trong HNSCC. Tuy nhiên, giá trị lâm sàng và ý nghĩa tiên đoán của TRRGs vẫn chưa rõ ràng. Chúng tôi đã đặt mục tiêu xây dựng một mô hình nguy cơ tiên đoán nhằm dự đoán phản ứng điều trị...... hiện toàn bộ
#ung thư biểu mô tế bào vảy vùng đầu và cổ #gen liên quan đến đáp ứng điều trị #mô hình nguy cơ #tử vong tổng thể #phân tích hồi quy Cox #phân tích LASSO
Tác động của sự không khớp giữa prosthesis và bệnh nhân đối với tỷ lệ tử vong sớm và muộn sau phẫu thuật thay van động mạch chủ Dịch bởi AI
Journal of Cardiothoracic Surgery - Tập 8 - Trang 1-8 - 2013
Ảnh hưởng của sự không khớp giữa prosthesis và bệnh nhân (PPM) đối với tỷ lệ sống sót sau phẫu thuật thay van động mạch chủ (AVR) vẫn còn gây tranh cãi. Trong nghiên cứu này, chúng tôi đã tìm cách xác định tác động của PPM đến tỷ lệ tử vong sớm (≤30 ngày) và muộn (>30 ngày) sau AVR hoặc AVR kết hợp với phẫu thuật bắc cầu động mạch vành (AVR với CABG). Giữa tháng 1 năm 1998 và tháng 3 năm 2012, 297...... hiện toàn bộ
#tỷ lệ tử vong sớm #tỷ lệ tử vong muộn #thay van động mạch chủ #không khớp prosthesis-bệnh nhân #PPM #CABG #Kaplan-Meier #hồi quy logistic #hồi quy Cox
Phát triển và xác thực bên ngoài một mô hình nomogram mới để dự đoán sự tái phát trong bàng quang sau phẫu thuật cắt thận - niệu quản tận gốc: một nghiên cứu đa trung tâm Dịch bởi AI
Journal of Cancer Research and Clinical Oncology - Tập 149 - Trang 11223-11231 - 2023
Nghiên cứu này nhằm thiết lập và xác thực những mô hình nomogram để dự đoán xác suất tái phát trong bàng quang (IVR) sau phẫu thuật cắt thận - niệu quản tận gốc (RNU) cho ung thư biểu mô đường niệu trên (UTUC). Dữ liệu lâm sàng của 528 bệnh nhân mắc UTUC sau RNU đã được thu thập từ hai trung tâm y tế trong khoảng thời gian từ 2009 đến 2020. Chúng tôi đã sử dụng phương pháp hồi quy thu hẹp tuyệt đố...... hiện toàn bộ
#tái phát trong bàng quang #cắt thận - niệu quản tận gốc #ung thư biểu mô đường niệu trên #mô hình nomogram #phân loại nguy cơ #hồi quy Cox đa biến
Mô hình điểm lâm sàng để dự đoán khả năng sống sót sau khi nhập viện do cơn khủng hoảng tăng glucose trong bối cảnh nguồn lực hạn chế Dịch bởi AI
International Journal of Diabetes in Developing Countries - Tập 32 - Trang 7-13 - 2012
Nghiên cứu này nhằm phát triển một mô hình điểm rủi ro, dựa trên dữ liệu lâm sàng có sẵn để đánh giá rủi ro tuyệt đối tử vong trong số các ca nhập viện do khủng hoảng tăng glucose tại Eastern Cape, một trong những tỉnh nghèo nhất của Nam Phi. Dữ liệu từ 268 ca nhập viện do khủng hoảng tăng glucose tại Bệnh viện Học viện Nelson Mandela, Mthatha, trong vòng 2 năm 2008 và 2009 đã được sử dụng để phát...... hiện toàn bộ
#khủng hoảng tăng glucose #tỷ lệ tử vong #mô hình hồi quy logistic #mô hình nguy cơ tỷ lệ Cox #huyết áp tâm thu #số lượng bạch cầu #số lượng tiểu cầu #điểm rủi ro
Tổng số: 17   
  • 1
  • 2